当前位置: 开发笔记 > 后端 > 正文

加工|年货_漫画趣解Flink实时数仓

作者：央央说去_531 | 来源：互联网 | 2023-07-13 13:45

篇首语：本文由编程笔记#小编为大家整理，主要介绍了漫画趣解Flink实时数仓相关的知识，希望对你有一定的参考价值。我是F

篇首语：本文由编程笔记#小编为大家整理，主要介绍了漫画趣解Flink实时数仓相关的知识，希望对你有一定的参考价值。

我是Flink，最近我抑郁了~

1 搬橡果的小故事

马上过冬了，我和小伙伴灰灰开始屯年货。

今年劳动了大半年，我们收获了整整一车的橡果。众所周知，我们小松鼠们都喜欢把这些心爱的橡果放到储藏室。

于是今天起了个大早，开始搬运这些橡果。

不一会，灰灰突然对我说想要吃一颗昨天摘的灰色小橡果。

我望了望眼前堆积如山的年货，苦恼的摸了摸脑袋：等我搬到了那颗再给你。

灰灰很不开心，嘴里嘟囔着：为啥昨天不能一摘下来我们就搬呢?

我解释道: 我们每年都是攒够一车才一起搬的呀？

看着一边气鼓鼓的灰灰，我放缓了搬运的速度~

抬头望着高高的橡果堆叹了口气。一边搬运，一边翻找他要的那颗小橡果。。。

今天怕是搬不完了~

2 慢 OR 快？

总结下，在故事中我们遇到了几个小烦恼：

每次都是攒了整车橡果才开始搬运，无法及时拿到想要的灰色小橡果

就算我实时搬运。之后再要其他小橡果，我还是不能快速找到，完全记不住之前拿过哪些？放到了哪里？

借由这个小故事，回归到本文主题。

这些关键词也是企业实时数仓建设中常遇到的一些难点和诉求。

2.1 企业实时数仓建设诉求

大多数企业面临数据源多、结构复杂的问题，为了更好的管理数据和赋能价值，常常会在集团、部门内进行数仓建设。

其中一般初期的数仓开发流程大致如下:

获取数据源，进行数据清洗、扩维、加工，最终输出业务指标

根据不同业务，重复进行上述流程开发，即烟囱式开发。

可想而知，随着业务需求的不断增多，这种烟囱式的开发模式会暴露很多问题:

代码耦合度高

重复开发

资源成本高

监控难

为此大量企业的数据团队开始着手数仓规划，对数据进行分层。

数据规整为层级存储，每层独立加工。整体遵循由下向上建设思想，最大化数据赋能。

数据源: 分为日志数据和业务数据两大类，包括结构化和非结构化数据。

数仓类型：根据及时性分为离线数仓和实时数仓

技术栈:
- 采集(Sqoop、Flume、CDC)
- 存储(Hive、Hbase、mysql、Kafka、数据湖)
- 加工(Hive、Spark、Flink)
- OLAP查询(Kylin、Clickhous、ES、Dorisdb)等。

2.2 稳定的离线数仓

早期规划中，在数据实时性要求不高的前提下，基本一开始都会选择建设离线数仓。

1）技术实现

使用Hive作为数据存储、计算技术栈

编写数据同步脚本，抽取数据到Hive的ODS层中

在Hive中完成dwd清洗加工、维度建模和dws汇总、主题建模

依赖调度工具(dophinScheduler)自动 T+1调度

olap引擎查询分析、报表展示

2）优缺点

配合调度工具，能够自动化实现T+1的数据采集、加工等全流程处理。技术栈简单易操作

Hive存储性能高、适合交互式查询

计算速度受Hive自身限制，可能因参数和数据分布等差异造成不同程度的数据延迟

3）改良

既然我们知道了Hive的运算速度比较慢，但是又不想放弃其高效的存储和查询功能。

那我们试试换一种计算引擎: Spark。

整体流程不变，主要是在ods->dwd->dws层的数据加工由Spark负责。效果是显而易见的，比Hive计算快了不少。

目前两种离线数仓均完美的实现了业务需求。领导第二天一看报表统计，结果皆大欢喜~

现在考虑换一种场景：不想等到第二天才能看到结果，要求实时展示指标，此时需要建设实时数仓。

3 冗余 OR 回溯？

既然要求达到实时效果，首先考虑优化加工计算过程。因此需要替换Spark，使用Flink计算引擎。

在技术实现方面，业内常用的实时数仓架构分为两种：Lambda架构和Kappa架构。

3.1 Lambda架构

顾名思义，Lambda架构保留实时、离线两条处理流程，即最终会同时构建实时数仓和离线数仓。

1）技术实现

使用Flink和Kafka、Hive为主要技术栈

实时技术流程。通过实时采集程序同步数据到Kafka消息队列

Flink实时读取Kafka数据，回写到kafka ods贴源层topic

Flink实时读取Kafka的ods层数据，进行实时清洗和加工，结果写入到kafka dwd明细层topic

同样的步骤，Flink读取dwd层数据写入到kafka dws汇总层topic

离线技术流程和前面章节一致

实时olap引擎查询分析、报表展示

2）优缺点

两套技术流程，全面保障实时性和历史数据完整性

同时维护两套技术架构，维护成本高，技术难度大

相同数据源处理两次且存储两次，产生大量数据冗余和操作重复

容易产生数据不一致问题

3）改良

针对相同数据源被处理两次这个点，对上面的Lambda架构进行改良。

通过将实时技术流的每一层计算结果定时刷新到离线数仓中，数据源读取唯一。大幅减少了数据的重复计算，加快了程序运行时间。

3.2 Kappa架构

为了解决上述模式下数据的冗余存储和计算的问题，同时降低技术架构复杂度，这里介绍另外一种模式: Kappa架构。

1）技术实现

使用Flink和Kafka为主要技术栈

实时技术流和Lambda架构保持一致

不再进行离线数仓构建

实时olap引擎查询分析、报表展示

2）优缺点

单一实时数仓，强实时性，程序性能高

维护成本和技术栈复杂度远远低于Lambda架构

源头数据仅作为实时数据流被计算、存储，数据仅被处理一次。

数据回溯难。依赖Kafka存储，历史数据会丢失

olap查询难。Kafka需要引入其他对接工具实现olap查询，Kafka天生不适合olap分析。

总体而言，第一种Lambda架构虽然有诸多缺点，但是具备程序稳健性和数据完整性，因此在企业中用的会比较多。

相反Kappa架构用的比较少。因为Kappa架构仅使用Kafka作为存储组件，需要同时满足数据完整性和实时读写，这明显很难做到。

Kappa架构的实时数仓道路将何去何从？

4 新一代实时数仓

我们明白，Kafka的定位是消息队列，可作为热点数据的缓存介质，对于数据查询和存储其实并不适合。

4.1 数据湖技术

近些年，随着数据湖技术的兴起，仿佛看到了一丝希望。

目前市场上最流行的数据湖为三种: Delta、Apache Hudi和Apache Iceberg。

其中Delta和Apache Hudi对于多数计算引擎的支持度不够，特别是Delta完全是由Spark衍生而来，不支持Flink。

对于Iceberg，Flink是完全实现了对接机制。看看其具备的功能:

基于快照的读写分离和回溯

流批统一的写入和读取

非强制绑定计算引擎

支持ACID语义

支持表、分区的变更特性

4.2 kappa架构升级

因此考虑对Kappa架构进行升级，使用Flink + Iceberg技术架构，可以解决Kappa架构中的一些问题。

存储介质由Kafka换成Iceberg，其余技术栈保持不变

Flink读取源头Kafka数据，结果存储到Iceberg ods层

继续执行后续的ods->dwd->dws层计算、结果存储

Iceberg支持流批一体查询，过程中支持olap查询

实时olap引擎查询分析、报表展示

目前Flink社区关于Iceberg的建设已经逐渐成熟，其中很多大厂开始基于Flink + Iceberg打造企业级实时数仓。

有兴趣的小伙伴欢迎添加我的个人微信: youlong525一起讨论~

》》》更多好文，欢迎关注公众号: 大数据兵工厂

推荐阅读

分布式
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
api
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
分布式
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
并发
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
并发
两种方式实现Flink异步IO查询Mysql

如官网所描述的Flink支持两种方式实现异步IO查询外部系统http ... [详细]

蜡笔小新 2024-09-28 11:27:02
分布式
你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路

你知道Kafka和Redis的各自优缺点吗？一文带你优化选择，不走弯路 ... [详细]

蜡笔小新 2023-10-15 17:24:27
server
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
并发
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
并发
优化MySQL InnoDB的IO性能：配置参数详解

本文深入探讨了如何通过调整InnoDB的关键配置参数来优化MySQL的随机IO性能，涵盖了缓存、日志文件、预读机制等多个方面，帮助读者全面提升数据库系统的性能。 ... [详细]

蜡笔小新 2024-12-27 13:00:29
并发
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
localhost
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
localhost
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
localhost
Flink（三）IDEA开发Flink环境搭建与测试

一.IDEA开发环境1.pom文件设置1.8 ... [详细]

蜡笔小新 2023-10-14 15:13:26
分布式
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
并发
数据库异常智能分析与诊断

数据库,异常, ... [详细]

蜡笔小新 2023-10-14 10:52:47